视网膜成像数据中解剖特征的自动检测和定位与许多方面有关。在这项工作中,我们遵循一种以数据为中心的方法,以优化分类器训练,用于视神经层析成像中的视神经头部检测和定位。我们研究了域知识驱动空间复杂性降低对所得视神经头部分割和定位性能的影响。我们提出了一种机器学习方法,用于分割2D的视神经头3D广场扫描源光源光学相干断层扫描扫描,该扫描能够自动评估大量数据。对视网膜的手动注释2D EN的评估表明,当基础像素级分类任务通过域知识在空间上放松时,标准U-NET的训练可以改善视神经头部细分和定位性能。
translated by 谷歌翻译
Comparing representations of complex stimuli in neural network layers to human brain representations or behavioral judgments can guide model development. However, even qualitatively distinct neural network models often predict similar representational geometries of typical stimulus sets. We propose a Bayesian experimental design approach to synthesizing stimulus sets for adjudicating among representational models efficiently. We apply our method to discriminate among candidate neural network models of behavioral face dissimilarity judgments. Our results indicate that a neural network trained to invert a 3D-face-model graphics renderer is more human-aligned than the same architecture trained on identification, classification, or autoencoding. Our proposed stimulus synthesis objective is generally applicable to designing experiments to be analyzed by representational similarity analysis for model comparison.
translated by 谷歌翻译
通过自动和手动方法生成的知识图(kgs)的数量正在不断增长。对于集成的视图和用法,在架构和实例级别上必须对这些KGS进行一致性。尽管有一些方法试图解决这个多源知识匹配问题,但缺少大黄金标准来评估其有效性和可扩展性。我们通过呈现Gollum来缩小这一差距 - 大规模多源知识图匹配的黄金标准,在4,149个不同的公里之间,超过275,000个对应关系。它们源自通过将DBPEDIA提取框架应用于大型Wiki农场而得出的知识图。可以提供三种黄金标准的变体:(1)一个具有评估无监督匹配方法的所有信件的版本,以及两个用于评估监督匹配的版本:(2)一个在火车和测试集中均包含每个kg,一个kg,一个kg, (3)一个专门包含在火车或测试集中的每个公斤。
translated by 谷歌翻译
我们提出了一种使用图像增强的自我监督训练方法,用于学习视图的视觉描述符。与通常需要复杂数据集的现有作品(例如注册的RGBD序列)不同,我们在无序的一组RGB图像上训练。这允许从单个相机视图(例如,在带有安装式摄像机的现有机器人单元格中学习)学习。我们使用数据增强创建合成视图和密集的像素对应关系。尽管数据记录和设置要求更简单,但我们发现我们的描述符与现有方法具有竞争力。我们表明,对合成对应的培训提供了各种相机视图的描述符的一致性。我们将训练与来自多种视图的几何对应关系进行比较,并提供消融研究。我们还使用从固定式摄像机中学到的描述符显示了一个机器人箱进行挑选实验,以定义掌握偏好。
translated by 谷歌翻译
引入后二十年多,退火重要性采样(AIS)仍然是边际可能性估计的最有效方法之一。它依赖于一系列分布序列在可聊天的初始分布和利益的目标分布之间插值,我们从大约使用非均匀的马尔可夫链中模拟了分布。为了获得边际可能性的重要性采样估计,AIS引入了扩展的目标分布,以重新持续马尔可夫链提案。尽管已经大量努力通过更改AIS使用的提案分布,通过更改中间分布和相应的马尔可夫内核,但不被评估的问题是AIS使用方便但次优的扩展目标分布。这可能会阻碍其性能。我们在这里利用基于分数的生成建模(SGM)的最新进展来近似与Langevin和Hamiltonian Dynamics离散化相对应的AIS建议的最佳扩展目标分布。我们在许多合成基准分布和变异自动编码器上展示了这些新颖的,可区分的AIS程序。
translated by 谷歌翻译
视觉惯性定位是计算机视觉和机器人技术应用中的关键问题,例如虚拟现实,自动驾驶汽车和航空车。目的是在已知环境或动力学时估计物体的准确姿势。最近的方法使用卷积和时空网络直接回归姿势。绝对姿势回归(APR)技术可预测已知场景中图像输入的绝对摄像头姿势。进程方法执行相对姿势回归(RPR),该方法可预测已知对象动态(视觉或惯性输入)的相对姿势。可以通过检索跨模式设置的两个数据源的信息来改进本地化任务,这是一个挑战性的问题,这是由于矛盾的任务。在这项工作中,我们进行了基准,以评估基于PGO和注意力网络的深层多模式融合。辅助和贝叶斯学习已整合到APR任务中。我们展示了RPR AD的APR任务的准确性改进以及用于航空车辆和手持设备的RPR-RPR任务。我们在Euroc Mav和Penncosyvio数据集上进行实验,并记录一个新颖的行业数据集。
translated by 谷歌翻译
知识图(kgs)中的实体类型信息(例如DBPEDIA,FREEBASE等)通常由于自动产生或人类策划而通常不完整。实体键入是在kg中分配或推断实体的语义类型的任务。本文介绍了\ textit {grand {grand},这是一种实体键入的新方法,利用RDF2VEC中的不同图形步行策略以及文本实体描述。 RDF2VEC首先生成图形步行,然后使用语言模型来获取图中每个节点的嵌入。这项研究表明,步行生成策略和嵌入模型对实体打字任务的性能有重大影响。所提出的方法的表现优于基准数据集DBPedia和Figer在kgs中的实体和小颗粒类别的实体。结果表明,订单感知RDF2VEC变体的组合以及文本实体描述的上下文嵌入可实现最佳结果。
translated by 谷歌翻译
知识图已成为以人类和机器可解开方式管理和标准化半结构域知识的有效工具。在基于图的域应用程序(例如嵌入式和图形神经网络)方面,当前的研究越来越多地考虑到图表中编码的信息的时间相关的演变。扩展了固定和静态知识图的算法和模型,以使其适合时间感知域,其中可以以不同的方式解释时间意识。特别是,有效期和事实的可追溯性是与时间相关的知识图扩展的目标之间的区别。在这种情况下,在文献中通常不一致或互换地使用术语和定义,例如动态和时间。因此,借助本文,我们旨在提供时间吸引的知识图形扩展的简短但定义明确的概述,从而促进该领域的未来研究。
translated by 谷歌翻译
知识图嵌入是一种代表学习技术,可在知识图中投射实体和关系到连续的向量空间。嵌入已经获得了很多吸收,并且已在链接预测和其他下游预测任务中大量使用。对单个任务或一组任务进行评估,以确定其整体绩效。然后,根据嵌入方法在手头的任务上执行的效果来评估评估。尽管如此,几乎没有评估(通常还没有深入了解)嵌入方法实际上要代表哪些信息。为了填补这一空白,我们介绍了DLCC(描述逻辑类构造函数)基准,这是一种用于分析它们可以代表哪些类的嵌入方法的资源。提出了两个黄金标准,一个基于现实世界知识图DBPEDIA和一个合成金标准。此外,还提供了实现实验协议的评估框架,以便研究人员可以直接使用黄金标准。为了证明DLCC的使用,我们比较了使用黄金标准的多种嵌入方法。我们发现,通过识别与黄金标准中定义的不同相关模式,许多DL构造函数实际上是通过识别不同的相关模式来学习的,并且对于大多数嵌入方法,很难学习特定的DL构造函数,例如基数构造函数。
translated by 谷歌翻译
我们为对密集物体网(DON)的稳健训练(DON)提出了一个框架,重点是多对象机器人操纵方案。 DON是一种获取密集的,视图的对象描述符的流行方法,可用于机器人操纵中的多种下游任务,例如,姿势估算,控制状态表示控制等。在唱歌对象上,在实例特定的多对象应用程序上的结果有限。此外,训练需要复杂的数据收集管道,包括每个对象的3D重建和掩盖注释。在本文中,我们通过简化的数据收集和培训制度进一步提高了DON的功效,从而始终如一地产生更高的精度,并能够对数据要求较少的关键点进行强有力的跟踪。特别是,我们专注于使用多对象数据而不是奇异的对象进行培训,并结合精心挑选的增强方案。我们还针对原始PixelWise配方提出了一种替代损失公式,该配方提供了更好的结果,并且对超参数较少敏感。最后,我们在现实世界的机器人抓握任务上展示了我们提出的框架的鲁棒性和准确性。
translated by 谷歌翻译